Internet como fuente de información léxica: extracción de etiquetas de dominio y detección de nuevos sentidos

نویسندگان

  • Celina Santamaría
  • Julio Gonzalo
  • M. Felisa Verdejo
چکیده

Resumen Describimos un algoritmo que combina información léxica (extráıda de WordNet 1.6) con información en Internet (directorios de Altavista) para caracterizar automáticamente los sentidos de una palabra con etiquetas de dominio y, al mismo tiempo, detectar y describir nuevos sentidos relevantes en Internet. Esta información puede utilizarse, entre otras cosas, para enriquecer bases de datos léxicas, para facilitar la extracción de corpora anotados semánticamente y derivados de Internet (como material de entrenamiento para sistemas de anotación semántica), o para agrupar sentidos (de dominio coincidente) cuando las distinciones semánticas son demasiado finas para las aplicaciones en que se usan.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

[Use of information resources available on the Internet: limitations and recommendations].

Actualmente el estudiante de medicina tiene mayor acceso a información por Internet, a la que acude con fines científico-académicos (2), para esto hace uso de recursos disponibles como Pubmed, SciELO, HINARI, LILACS, entre otros; en este estudio se encontró una baja frecuencia del uso de estos recursos y consideran el dominio del inglés como posible factor limitante, respecto a esto, los autore...

متن کامل

Utilizando WordNet para Complementar la Información de Entrenamiento en la Identificación del Significado de las Palabras

La desambiguación del significado de las palabras se ha desarrollado como una subárea del Procesamiento del Lenguaje Natural (PLN), donde el objetivo es determinar el sentido correcto de aquellas palabras que tienen más de un significado, no es una tarea final en sí misma, sino una tarea intermedia necesaria en variadas aplicaciones del procesamiento del lenguaje natural. La resolución de la am...

متن کامل

Los proyectos SINAMED e ISIS: Mejoras en el Acceso a la Información Biomédica mediante la integración de Generación de Resúmenes, Categorización Automática de Textos y Ontologías

Los sistemas inteligentes de acceso a la información están integrando de manera creciente técnicas de minería de texto y de análisis del contenido, y recursos semánticos como las ontologías. En los proyectos ISIS y SINAMED juegan un papel central la utilización de categorización de texto, la extracción automática de resúmenes y las ontologías, para la mejora del acceso a la información en un do...

متن کامل

Herramienta de apoyo en la detección de reutilización de código fuente

Resumen. El acto de tomar parcial o totalmente contenidos generados por otras personas, y presentarlos como propios, sin dar el crédito correspondiente a los autores, es una forma indebida de reutilización de contenidos, considerada como plagio. Desafortunamente, en la actualidad, dada la amplia disponibilidad de contenidos a través de Internet, esta práctica se ha incrementado. La gran mayoŕıa...

متن کامل

Ampliación de WordNet mediante extracción léxica a partir de un diccionario de sinónimos

1. Introducción El objetivo del experimento presentado en este trabajo es la expansión del WordNet gallego mediante extracción léxica a partir de un diccionario de sinónimos de esta lengua. El experimento se realiza dentro del proyecto coordinado SKATeR en el que nuestro grupo tiene como objetivo prioritario la construcción de Galnet, la versión gallega del WordNet 3.0. El marco de desarrollo e...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • Procesamiento del Lenguaje Natural

دوره 27  شماره 

صفحات  -

تاریخ انتشار 2001